29 research outputs found

    A Client mobile application for Chinese-Spanish statistical machine translation

    Get PDF
    This show and tell paper describes a client mobile application for Chinese-Spanish machine translation. The system combines a standard server-based statistical machine translation (SMT) system, which requires online operation, with different input modalities including text, optical character recognition (OCR) and automatic speech recognition (ASR). It also includes an index-based search engine for supporting off-line translation.Postprint (published version

    Cross-language document retrieval by using non-linear semantic mapping

    Get PDF
    Se propone un procedimiento no-lineal de mapeado semántico para extraer información multilingüe. El método consiste en utilizar una técnica de reducción de espacio no-lineal para agrupar colecciones de documentos multilingües. En el método propuesto, se construyen para cada lengua agrupaciones independientes de la colección multilingüe y se usan las similitudes de las expresiones semánticas para extraer documentos multilingües. Se implementan dos variantes del método y se comparan con técnicas de extracción de información multilingüe. El método propuesto, para unas tareas específicas, mejora el convencional.A non-linear semantic mapping procedure is proposed for cross-language document retrieval. The method relays on a non-linear space reduction technique for constructing semantic embeddings of multilingual document collections. In the proposed method, an independent embedding is constructed for each language in the multilingual collection and the similarities among the resulting semantic representations are used for cross-language document retrieval. Two variants of the proposed method are implemented and compared with a state-of-the-art cross-language information retrieval technique. It is shown that, for some specific tasks, the proposed method outperforms the conventional one

    Uso de mapas semánticos para la búsqueda crosslingue de oraciones paralelas

    Get PDF
    Este trabajo presenta el uso de una técnica de recuperación de infor-mación crossling¨ue basada en escalamiento multidimensional para la iden-tificación de oraciones paralelas entre lenguas diferentes. El método prop-uesto permite hacer una reducción no-lineal del espacio de representación de las oraciones que se puede aprovechar para identificar similitudes semánti-cas entre conjuntos de oraciones en distintas lenguas. La técnica se ilustra con una colección pentaling¨ue extrai´da de la Constitución Española, la cual está disponible en las cuatro lenguas oficiales del estado español e inglés. Presentamos una evaluación comparativa entre nuestro método y un sistema de búsqueda crossling¨ue basado en la traducción automática de las consultas. Los resultados muestran que nuestro sistema mejora consistentemente en las 20 direcciones experimentales de búsqueda crossling¨ue que permite nuestra colección de datosPostprint (published version

    Using collocation segmentation to augment the phrase table

    Get PDF
    This paper describes the 2010 phrase-based statistical machine translation system developed at the TALP Research Center of the UPC1 in cooperation with BMIC2 and VMU3. In phrase-based SMT, the phrase table is the main tool in translation. It is created extracting phrases from an aligned parallel corpus and then computing translation model scores with them. Performing a collocation segmentation over the source and target corpus before the alignment causes that di erent and larger phrases are extracted from the same original documents. We performed this segmentation and used the union of this phrase set with the phrase set extracted from the nonsegmented corpus to compute the phrase table. We present the con gurations considered and also report results obtained with internal and o cial test sets.Postprint (published version

    The TALP-UPC phrase-based translation system for EACL-WMT 2009

    Get PDF
    This study presents the TALP-UPC submission to the EACL Fourth Worskhop on Statistical Machine Translation 2009 evaluation campaign. It outlines the architecture and configuration of the 2009 phrase-based statistical machine translation (SMT) system, putting emphasis on the major novelty of this year: combination of SMT systems implementing different word reordering algorithms. Traditionally, we have concentrated on the Spanish-to-English and English-to-Spanish News Commentary translation tasks.Postprint (published version

    Modelo estocástico de traducción basado en N-gramas de tuplas bilingües y combinación log-lineal de características

    Get PDF
    En esta comunicación se presenta un sistema de traducción estocástica basado en el modelado mediante N-gramas de la probabilidad conjunta de textos bilingües. La unidad básica del modelo es la tupla, par de cadenas de palabras del lenguaje fuente (a traducir) y el lenguaje destino (traducción). La traducción se lleva a cabo mediante la maximización de una combinación lineal de los logaritmos de la probabilidad asignada a la traducción por el modelo de traducción y otras características, siguiendo la aproximación de entropía máxima. Las prestaciones del sistema de traducción son evaluadas con una tarea de traducción del habla: la traducción entre inglés y español (y viceversa) de transcripciones de intervenciones de los miembros del Parlamento Europeo. Los resultados alcanzados se encuentran al nivel del estado del arte.This communication introduces a stochastic machine translation system based on Ngram modelling of the joint probability of bilingual texts. The basic unit of this model is called a tuple and consists of a pair of both source (to be translated) language and target language (translation) word-strings. Translation is driven by a log-linear combination of the N-gram model probability and other features, according to the maximum entropy language modelling approach. The translation performance is evaluated by means of a speech-to-speech translation tasks: translation from Spanish to English (and viceversa) of European Parliament speeches. The system reaches a state-of-art performance.Este trabajo ha sido financiado parcialmente por la CICYT a través del proyecto TIC2002-04447-C02 (ALIADO) y la Unión Europea mediante el proyecto FP6-506738 (TC-STAR)

    The TALP & I2R SMT Systems for IWSLT 2008

    Get PDF
    This paper gives a description of the statistical machine translation (SMT) systems developed at the TALP Research Center of the UPC (Universitat Polit`ecnica de Catalunya) for our participation in the IWSLT’08 evaluation campaign. We present Ngram-based (TALPtuples) and phrase-based (TALPphrases) SMT systems. The paper explains the 2008 systems’ architecture and outlines translation schemes we have used, mainly focusing on the new techniques that are challenged to improve speech-to-speech translation quality. The novelties we have introduced are: improved reordering method, linear combination of translation and reordering models and new technique dealing with punctuation marks insertion for a phrase-based SMT system. This year we focus on the Arabic-English, Chinese-Spanish and pivot Chinese-(English)-Spanish translation tasks.Postprint (published version

    CHISPA-MT: un consorcio para el desarrollo de sistemas de traducción automática entre las lenguas china y castellana

    Get PDF
    El presente proyecto de investigación pretende el estudio y desarrollo de tecnologías para la traducción automática en sistemas de comunicación chino-castellano y castellano-chino. El proyecto combina una línea de investigación básica con una línea de investigación aplicada cuyo objetivo es la utilización de las tecnologías generadas en el desarrollo de herramientas específicas para la comunicación bilingüe.The main goal of this research project is the study and development of machine translation technologies for Chinese-to-Spanish and Spanish-to-Chinese communication systems. The project combines a basic research activity along with an applied research work which objective is the implementation of the developed machine translation technologies into specific tools and systems for bilingual communications

    Implementación de una segmentación estadística complementaria para extraer unidades de traducción en un sistema de traducción estadístico basado en frases

    Get PDF
    Este artículo evalúa un nuevo método de segmentación en un sistema de traducción automática estadístico basado en frases. La técnica de segmentación se implementa tanto en la parte fuente como en la parte destino y se usa para extraer unidades de traducción. Los resultados mejoran el sistema de referencia en la tarea español-inglés del EuroParl.This report evaluates the impact of using a novel collocation segmentation method for phrase extraction in the standard phrase-based statistical machine translation approach. The collocation segmentation technique is implemented simultaneously in the source and target side. The resulting collocation segmentation is used to extract translation units. Experiments are reported in the Spanish-to-English EuroParl task and promising results are achieved in translation quality.This work has been partially funded by the Spanish Department of Education and Science through the Juan de la Cierva fellowship program. The authors also wants to thank the Barcelona Media Innovation Centre for its support and permission to publish this research

    Evaluating indirect strategies for Chinese-Spanish statistical machine translation with English as pivot language

    Get PDF
    El chino y el castellano son los idiomas más hablados en el mundo como lenguas maternas. Sin embargo, no existe mucha actividad de investigación en traducción automática entre este par de lenguas. Este artículo se enfoca en la investigación del estado actual de la cuestión de la traducción automática estadística entre chino-castellano, ya que hoy en día constituye una de las aproximaciones más usadas dentro del área de la traducción automática. Con este propósito en mente, describimos los corpus paralelos disponibles como el BTEC (Basic Traveller Expressions Corpora), la Biblia y las Naciones Unidas (UN). Concretamente, experimentamos con diferentes estrategias de traducción automática estadística directa e indirectas (denominadas pivotes). Entre las estrategias pivotes exploramos dos metodologías: la traducción de chino a pivote y de pivote a castellano; y el sistema entrenado con un pseudo-corpus chino-castellano, en el que el castellano se ha traducido previamente del pivote. Usamos el inglés como lengua pivote. Los resultados experimentales sugieren que el inglés podría constituir una lengua óptima para la intermediación de la traducción entre chino y castellano. Así pues, uno de los principales objetivos de este trabajo es motivar a la comunidad científica para investigar en este par de lenguas de alto impacto demográfico.Chinese and Spanish are the most spoken languages in the world. However, there is not much research done in machine translation for this language pair. This paper focuses on investigating the state-of-the-art of Chinese-Spanish Statistical Machine Translation, which nowadays is one of the more popular approaches in Machine Translation. For this purposes we report the details of the available parallel corpus which are the BTEC (Basic Traveller Expressions Corpora), Holy Bible and UN (United Nations). Additionally, we experiment with the biggest corpus (UN) to explore alternatives of SMT strategies which consist on using a pivot language. Two alternatives are shown for pivoting: translating from Chinese to Pivot and from Pivot to Spanish; and training on a Chinese-Spanish corpus, where the Spanish corpus has been previously translated from the Pivot language. We use English as Pivot language. Results show that English is quite a nice pivot language between Chinese and Spanish. One of the main objectives of this work is motivating and involving the research community to work in this important pair of languages given the demographic impact of these two languages.Este trabajo ha sido parcialmente financiado por el Ministerio de Ciencia e Innovación mediante un programa Juan de la Cierva y el proyecto BUCEADOR (TEC2009-14094-C04-01)